{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Du Machine Learning pour de vrai ?\n", "\n", "Jusqu'ici on a vu plusieurs techniques de machine learning, en particulier :\n", "* des arbres de décision, à partir desquels on peut construire des forêts aléatoires, qui sont une technique d'apprentissage supervisé, permettant de faire de la classification ;\n", "* du clustering, qui permet de regrouper ensemble les points qui se ressemblent le plus ;\n", "* de la projection en espace de plus faible dimension, permettant de visualiser nos points ;\n", "* de la propagation de labels, qui permettent de donner des labels à l'ensemble de nos données à partir d'un petit ensemble de points correctement labellisés.\n", "\n", "Mais on n'a utilisé ces techniques que sur des datasets synthétiques, très simples, et parfois peut-être un peu trop simples.\n", "On va donc voir comment on peut essayer d'utiliser ces techniques pour analyser un jeu de données, on va donc essayer de :\n", "* représenter nos données, malgré leur dimension trop importante pour être représentées directement ;\n", "* regrouper des points ensemble, et voir si on arrive à en dire quelque chose ;\n", "* trouver les paramètres (profondeur des arbres, nombre d'arbres, etc.) qui permettent de prédire des choses à partir de nos données.\n", "\n", "Bien sûr, ces techniques ne sont pas les seules qui existent, ni nécessairement celles qui sont les plus efficaces.\n", "En revanche, elles sont toutes basées sur des méthodes de graphes, en construisant une représentation sous forme de graphe de nos données.\n", "(Et en fait, elles donnent très souvent de très bons résultats ! :) )" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline\n", "import seaborn as sns ; sns.set()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Jeu de données\n", "\n", "Cette fois, on va essayer d'apprendre des choses sur des données réelles.\n", "On dispose d'un jeu de données dont chaque ligne représente une enregistrement musical, dont ont été extraite une série de mesures, ainsi que le genre musical.\n", "\n", "Notre objectif final est d'essayer de prédire ce genre musical à partir des autres variables.\n", "\n", "Contrairement aux jeux de données synthétiques qu'on a utilisés jusqu'ici, on va d'abord essayer de comprendre à quoi ressemblent nos données." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Chargement et premières observations\n", "\n", "Commençons par charger nos données à l'aide de la librairie `pandas`." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "data = pd.read_csv(\"dataset.csv\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On peut ensuite regarder la répartition des valeurs de chacune des variables." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
file_namezero_crossingspectral_centroidspectral_rolloffspectral_bandwidthchroma_frequencyrmsedeltamelspectogramtempo...mfcc11mfcc12mfcc13mfcc14mfcc15mfcc16mfcc17mfcc18mfcc19label
count17421742.0000001742.0000001742.0000001742.0000001742.0000001742.0000001.742000e+031742.0000001742.000000...1742.0000001742.0000001742.0000001742.0000001742.0000001742.0000001742.0000001742.0000001742.0000001742
unique1742NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaN6
top01. Aaj Sraboner Amontrone.mp3NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNnazrul
freq1NaNNaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaN312
meanNaN215007.4655572015.7004684100.4262112043.5600090.3053850.171471-1.743660e-098.522913123.112315...0.117813-5.085212-1.104625-4.488481-0.222948-4.6361000.331630-4.160293-0.704487NaN
stdNaN89920.930842721.6964801597.279461666.2443230.0724640.0751681.393930e-077.37473321.849677...5.9856465.2532805.6438914.6823044.6599304.5157594.4474364.5310114.433841NaN
minNaN0.0000000.0000000.0000000.0000000.0000000.000000-1.676001e-060.00000073.828125...-25.692529-24.642862-26.359570-23.886369-20.935224-21.520218-17.205040-24.743798-16.665104NaN
25%NaN152359.0000001533.5070502962.0497021699.0977220.2495910.118410-6.728298e-083.576854107.666016...-3.046898-8.325668-3.995158-7.407150-2.824771-7.600435-2.115535-6.914308-3.256649NaN
50%NaN196971.5000002033.9647454226.8897802223.5732710.2946760.1606421.617425e-106.477533123.046875...0.643217-4.750612-0.513353-4.5375350.162360-4.9089120.495084-4.428667-0.535849NaN
75%NaN257056.2500002495.0773025258.4936962532.0939620.3518390.2142496.924068e-0811.528968135.999178...3.916396-1.7350952.440787-1.5978142.756847-2.0712203.124587-1.8304022.015320NaN
maxNaN757737.0000005323.0869708810.8772613252.2092610.6166200.6288266.417627e-0783.923833184.570312...20.07756814.95820816.89101324.02098320.45189419.34729319.91584221.32297820.967689NaN
\n", "

11 rows × 31 columns

\n", "
" ], "text/plain": [ " file_name zero_crossing spectral_centroid \\\n", "count 1742 1742.000000 1742.000000 \n", "unique 1742 NaN NaN \n", "top 01. Aaj Sraboner Amontrone.mp3 NaN NaN \n", "freq 1 NaN NaN \n", "mean NaN 215007.465557 2015.700468 \n", "std NaN 89920.930842 721.696480 \n", "min NaN 0.000000 0.000000 \n", "25% NaN 152359.000000 1533.507050 \n", "50% NaN 196971.500000 2033.964745 \n", "75% NaN 257056.250000 2495.077302 \n", "max NaN 757737.000000 5323.086970 \n", "\n", " spectral_rolloff spectral_bandwidth chroma_frequency rmse \\\n", "count 1742.000000 1742.000000 1742.000000 1742.000000 \n", "unique NaN NaN NaN NaN \n", "top NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN \n", "mean 4100.426211 2043.560009 0.305385 0.171471 \n", "std 1597.279461 666.244323 0.072464 0.075168 \n", "min 0.000000 0.000000 0.000000 0.000000 \n", "25% 2962.049702 1699.097722 0.249591 0.118410 \n", "50% 4226.889780 2223.573271 0.294676 0.160642 \n", "75% 5258.493696 2532.093962 0.351839 0.214249 \n", "max 8810.877261 3252.209261 0.616620 0.628826 \n", "\n", " delta melspectogram tempo ... mfcc11 \\\n", "count 1.742000e+03 1742.000000 1742.000000 ... 1742.000000 \n", "unique NaN NaN NaN ... NaN \n", "top NaN NaN NaN ... NaN \n", "freq NaN NaN NaN ... NaN \n", "mean -1.743660e-09 8.522913 123.112315 ... 0.117813 \n", "std 1.393930e-07 7.374733 21.849677 ... 5.985646 \n", "min -1.676001e-06 0.000000 73.828125 ... -25.692529 \n", "25% -6.728298e-08 3.576854 107.666016 ... -3.046898 \n", "50% 1.617425e-10 6.477533 123.046875 ... 0.643217 \n", "75% 6.924068e-08 11.528968 135.999178 ... 3.916396 \n", "max 6.417627e-07 83.923833 184.570312 ... 20.077568 \n", "\n", " mfcc12 mfcc13 mfcc14 mfcc15 mfcc16 \\\n", "count 1742.000000 1742.000000 1742.000000 1742.000000 1742.000000 \n", "unique NaN NaN NaN NaN NaN \n", "top NaN NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN NaN \n", "mean -5.085212 -1.104625 -4.488481 -0.222948 -4.636100 \n", "std 5.253280 5.643891 4.682304 4.659930 4.515759 \n", "min -24.642862 -26.359570 -23.886369 -20.935224 -21.520218 \n", "25% -8.325668 -3.995158 -7.407150 -2.824771 -7.600435 \n", "50% -4.750612 -0.513353 -4.537535 0.162360 -4.908912 \n", "75% -1.735095 2.440787 -1.597814 2.756847 -2.071220 \n", "max 14.958208 16.891013 24.020983 20.451894 19.347293 \n", "\n", " mfcc17 mfcc18 mfcc19 label \n", "count 1742.000000 1742.000000 1742.000000 1742 \n", "unique NaN NaN NaN 6 \n", "top NaN NaN NaN nazrul \n", "freq NaN NaN NaN 312 \n", "mean 0.331630 -4.160293 -0.704487 NaN \n", "std 4.447436 4.531011 4.433841 NaN \n", "min -17.205040 -24.743798 -16.665104 NaN \n", "25% -2.115535 -6.914308 -3.256649 NaN \n", "50% 0.495084 -4.428667 -0.535849 NaN \n", "75% 3.124587 -1.830402 2.015320 NaN \n", "max 19.915842 21.322978 20.967689 NaN \n", "\n", "[11 rows x 31 columns]" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data.describe(include=\"all\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On a donc un jeu de données avec 1742 lignes et 31 colonnes, c'est à dire 1742 oservations de 31 variables différentes.\n", "\n", "Les variables ont des échelles assez différentes (il suffit de regarder la ligne `mean`), on va voir si ça nous pose des problèmes plus tard.\n", "\n", "La variable `file_name` contient 1742 valeurs différentes.\n", "En fait, c'est simplement le nom des fichiers correspondant à chacune des musiques... \n", "pas très intéressant, on enlève !" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "data = data.drop([\"file_name\"], axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 1.** Affichez le tableau récapitulatif comme ci-dessus et vérifiez que la variable `file_name` a bien été enlevée." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Corrélations entre les variables\n", "\n", "Avant d'essayer de faire quelque chose avec nos variables, on peut regarder si elles sont corrélées entre elles.\n", "La corrélation entre deux variables est une mesure statistique définie ainsi :\n", "$$ Corr(X, Y) = \\frac{E((X-E(X))(Y-E(Y))}{\\sigma_X \\sigma_Y}, $$\n", "où $\\sigma_X$ et $\\sigma_Y$ sont les écart-types de $X$ et $Y$.\n", "\n", "C'est en vait la covariance de $X$ et $Y$, normalisées par leurs écart-types.\n", "\n", "Ce qu'il faut retenir, c'est surtout que c'est une valeur entre $-1$ et $1$, et que plus elle est proche de $-1$ ou de $1$, plus les variables sont corrélées.\n", "A priori, quand la corrélation entre deux variables est importante, avoir les deux variables n'apporte pas beaucoup plus d'information que d'avoir une seule des deux." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fig, ax = plt.subplots(figsize=(9, 8))\n", "sns.heatmap(data.corr(method=\"pearson\"), ax=ax)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On remarque que les variables `spectral_centroid`, `spectral_rolloff`, `spectral_bandwidth` et `mfcc1` sont très corrélées.\n", "De même, `rmse` et `melspetrogram` sont également très corrélées.\n", "\n", "On va donc enlever les variables qui font doublon, et générer un dataset, avec les features dans une variable $X$, et les labels dans un variable $y$." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "df_removed = data.drop([\"spectral_rolloff\", \"spectral_bandwidth\", \"mfcc1\", \"melspectogram\"], axis=1)\n", "\n", "X = df_removed.loc[:, df_removed.columns != \"label\"]\n", "y = df_removed[\"label\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Enlever les variables trop corrélées n'est pas inspensable, et aura a priori un impact limité sur la qualité de nos prédictions en utilisant des arbres de décision.\n", "Souvenez vous : les arbres de décision apprennent des questions sur les valeurs des variables.\n", "Ces questions sont de la forme $X_i < a$, où $a$ est un seuil appris lors de l'entraînement.\n", "\n", "Dans ce cas, on peut raisonnablement s'attendre à ce qu'avoir une variable en double n'ait qu'un effet limité sur le résultat final, car répondre à la question sur une variable ou sur une autre devrait donner des résultats proches.\n", "Cela pourrait en revanche ralentir l'entraînement car l'ensemble des questions possibles serait inutilement grand." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pour l'affichage par la suite, on va garder en mémoire une variable `labels` avec des numéros qui permettront d'afficher les couleurs sur nos dessins :" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "music_styles = np.unique(y)\n", "music_style_encoding = {m: i for i, m in enumerate(music_styles)}\n", "labels = np.array(list(map(music_style_encoding.get, list(y))))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Représentation des données ?\n", "\n", "On y voit un peu plus clair, et on a pu enlever les variables qui nous paraissent les moins utiles.\n", "On va essayer de représenter nos données comme on a déjà essayé de le faire dans les TP précédents.\n", "\n", "Évidemment, on ne va pas tout recoder, utilisons `SpectralEmbedding` :" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "from sklearn.manifold import SpectralEmbedding\n", "\n", "embedding = SpectralEmbedding(n_components=2)\n", "X2 = embedding.fit_transform(X)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.scatter(X2[:, 0], X2[:, 1], c=labels, cmap=\"Dark2\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 2.** Que dire de cette représentation ? Est-elle satisfaisante ?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Réponse :*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En fait c'est dû aux différences d'échelles des données... ça fait n'importe quoi parce que des variables sont vraiment beaucoup plus grandes que d'autres.\n", "\n", "On va normaliser les données :" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "from sklearn.preprocessing import scale\n", "\n", "Xscaled = scale(X)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On peut afficher à nouveau le descriptif de nos variables :" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
zero_crossingspectral_centroidchroma_frequencyrmsedeltatempomfcc0mfcc2mfcc3mfcc4...mfcc10mfcc11mfcc12mfcc13mfcc14mfcc15mfcc16mfcc17mfcc18mfcc19
count1.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+03...1.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+031.742000e+03
mean2.826862e-16-1.948626e-17-1.574197e-168.030316e-17-1.657049e-18-7.277314e-162.516803e-161.325958e-167.459908e-171.218569e-16...-4.336410e-179.005426e-172.137594e-16-2.813160e-162.272070e-171.666609e-169.630006e-17-5.697700e-17-1.165511e-16-9.572646e-17
std1.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+00...1.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+001.000287e+00
min-2.391759e+00-2.793805e+00-4.215485e+00-2.281819e+00-1.201451e+01-2.256250e+00-1.159683e+01-4.554401e+00-4.679039e+00-4.716782e+00...-4.554122e+00-4.313277e+00-3.724010e+00-4.476025e+00-4.143998e+00-4.446038e+00-3.740006e+00-3.944229e+00-4.544111e+00-3.600761e+00
25%-6.969062e-01-6.683307e-01-7.701652e-01-7.060944e-01-4.703116e-01-7.071379e-01-6.171237e-01-6.065826e-01-3.884310e-01-5.633696e-01...-5.776729e-01-5.288686e-01-6.170215e-01-5.122998e-01-6.235195e-01-5.584997e-01-6.566306e-01-5.503997e-01-6.079892e-01-5.757751e-01
50%-2.006334e-012.531469e-02-1.478245e-01-1.441053e-011.367321e-02-2.995879e-031.308499e-011.638622e-011.296066e-029.521434e-02...6.462766e-028.780251e-026.371191e-021.047931e-01-1.047961e-028.270927e-02-6.043073e-023.676296e-02-5.924763e-023.804522e-02
75%4.677538e-016.644268e-016.412391e-015.692530e-015.093852e-015.899658e-017.070439e-017.036774e-015.201561e-016.215948e-01...6.500392e-016.347975e-016.379022e-016.283661e-016.175373e-016.396343e-015.681474e-016.281729e-015.143577e-016.135962e-01
max6.037364e+004.584110e+004.296243e+006.086163e+004.617816e+002.813572e+002.832922e+003.292609e+004.427734e+003.548240e+00...3.347441e+003.335561e+003.816506e+003.189432e+006.090517e+004.438002e+005.312568e+004.404748e+005.625806e+004.889305e+00
\n", "

8 rows × 25 columns

\n", "
" ], "text/plain": [ " zero_crossing spectral_centroid chroma_frequency rmse \\\n", "count 1.742000e+03 1.742000e+03 1.742000e+03 1.742000e+03 \n", "mean 2.826862e-16 -1.948626e-17 -1.574197e-16 8.030316e-17 \n", "std 1.000287e+00 1.000287e+00 1.000287e+00 1.000287e+00 \n", "min -2.391759e+00 -2.793805e+00 -4.215485e+00 -2.281819e+00 \n", "25% -6.969062e-01 -6.683307e-01 -7.701652e-01 -7.060944e-01 \n", "50% -2.006334e-01 2.531469e-02 -1.478245e-01 -1.441053e-01 \n", "75% 4.677538e-01 6.644268e-01 6.412391e-01 5.692530e-01 \n", "max 6.037364e+00 4.584110e+00 4.296243e+00 6.086163e+00 \n", "\n", " delta tempo mfcc0 mfcc2 mfcc3 \\\n", "count 1.742000e+03 1.742000e+03 1.742000e+03 1.742000e+03 1.742000e+03 \n", "mean -1.657049e-18 -7.277314e-16 2.516803e-16 1.325958e-16 7.459908e-17 \n", "std 1.000287e+00 1.000287e+00 1.000287e+00 1.000287e+00 1.000287e+00 \n", "min -1.201451e+01 -2.256250e+00 -1.159683e+01 -4.554401e+00 -4.679039e+00 \n", "25% -4.703116e-01 -7.071379e-01 -6.171237e-01 -6.065826e-01 -3.884310e-01 \n", "50% 1.367321e-02 -2.995879e-03 1.308499e-01 1.638622e-01 1.296066e-02 \n", "75% 5.093852e-01 5.899658e-01 7.070439e-01 7.036774e-01 5.201561e-01 \n", "max 4.617816e+00 2.813572e+00 2.832922e+00 3.292609e+00 4.427734e+00 \n", "\n", " mfcc4 ... mfcc10 mfcc11 mfcc12 \\\n", "count 1.742000e+03 ... 1.742000e+03 1.742000e+03 1.742000e+03 \n", "mean 1.218569e-16 ... -4.336410e-17 9.005426e-17 2.137594e-16 \n", "std 1.000287e+00 ... 1.000287e+00 1.000287e+00 1.000287e+00 \n", "min -4.716782e+00 ... -4.554122e+00 -4.313277e+00 -3.724010e+00 \n", "25% -5.633696e-01 ... -5.776729e-01 -5.288686e-01 -6.170215e-01 \n", "50% 9.521434e-02 ... 6.462766e-02 8.780251e-02 6.371191e-02 \n", "75% 6.215948e-01 ... 6.500392e-01 6.347975e-01 6.379022e-01 \n", "max 3.548240e+00 ... 3.347441e+00 3.335561e+00 3.816506e+00 \n", "\n", " mfcc13 mfcc14 mfcc15 mfcc16 mfcc17 \\\n", "count 1.742000e+03 1.742000e+03 1.742000e+03 1.742000e+03 1.742000e+03 \n", "mean -2.813160e-16 2.272070e-17 1.666609e-16 9.630006e-17 -5.697700e-17 \n", "std 1.000287e+00 1.000287e+00 1.000287e+00 1.000287e+00 1.000287e+00 \n", "min -4.476025e+00 -4.143998e+00 -4.446038e+00 -3.740006e+00 -3.944229e+00 \n", "25% -5.122998e-01 -6.235195e-01 -5.584997e-01 -6.566306e-01 -5.503997e-01 \n", "50% 1.047931e-01 -1.047961e-02 8.270927e-02 -6.043073e-02 3.676296e-02 \n", "75% 6.283661e-01 6.175373e-01 6.396343e-01 5.681474e-01 6.281729e-01 \n", "max 3.189432e+00 6.090517e+00 4.438002e+00 5.312568e+00 4.404748e+00 \n", "\n", " mfcc18 mfcc19 \n", "count 1.742000e+03 1.742000e+03 \n", "mean -1.165511e-16 -9.572646e-17 \n", "std 1.000287e+00 1.000287e+00 \n", "min -4.544111e+00 -3.600761e+00 \n", "25% -6.079892e-01 -5.757751e-01 \n", "50% -5.924763e-02 3.804522e-02 \n", "75% 5.143577e-01 6.135962e-01 \n", "max 5.625806e+00 4.889305e+00 \n", "\n", "[8 rows x 25 columns]" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df_scaled = pd.DataFrame(Xscaled)\n", "df_scaled.columns = X.columns\n", "df_scaled.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 3.** Que dire des valeurs de `mean` et `std` maintenant ?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Réponse :*" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 4.** Calculer à nouveau le SpectralEmbedding de ce jeu de données normalisé. Qu'en pensez-vous ?" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bon il n'y a pas forcément de répartition évidente entre les six groupes, mais même si c'est pas évident on dirait quand même qu'il y a une certaine forme de structure, puis on perd pas mal d'information quand on projette ainsi...\n", "\n", "Par la suite, on utilisera la version normalisée de `X`, remplaçons donc la valeur de `X` par son équivalent normalisé :" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "X = scale(X)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Clustering ?\n", "\n", "Imaginons un instant que l'on a que les valeurs de $X$, mais qu'on ignore les labels $y$.\n", "Essayons de faire du clustering :" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "from sklearn.cluster import KMeans" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "kmeans = KMeans(n_clusters=6)\n", "pred_kmeans = kmeans.fit_predict(Xscaled)" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.scatter(X2scaled[:, 0], X2scaled[:, 1], c=pred_kmeans, cmap=\"Dark2\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Aux vues de ce qu'on avait dans la partie précédente, ça n'a pas l'air si convainquant... si vous avez encore du temps à la fin, ou envie d'en apprendre plus, vous pouvez faire le DM sur l'évaluation du clustering, pour voir une façon d'évaluer une méthode de clustering." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En fait une façon d'évaluer une méthode de clustering est de calculer le score de silhouette.\n", "C'est un score défini à partir de $X$ et des clusters prédits, qui vaut entre $-1$ et $1$, plus il est proche de $-1$ ou $1$, et plus les clusters sont séparés les uns des autres.\n", "En revanche, plus il est proche de $0$, moins le clustering est bon, et plus les clusters se superposent les uns aux autres.\n", "\n", "Par exemple, pour le clustering obtenu ci-dessus, on a :" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.09304312180836477" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import silhouette_score\n", "\n", "silhouette_score(Xscaled, pred_kmeans)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ce qui est très proche de zéro. On a donc un clustering de bien mauvaise qualité...\n", "\n", "Vous pouvez essayer avec un nombre de clusters différent de $6$ et voir que vous obtenez toujours un résultat similaire.\n", "\n", "Si vous vous ennuyez, vous pouvez faire le DM (bonus et facultatif) sur l'évaluation du clustering, où le but est de calculer un score similaire à la silhouette pour le clustering, et la silhouette si vous avez vraiment rien de mieux à faire." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Prédiction ?\n", "\n", "### Une référence ?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On va commencer par découper le dataset en deux parties, en gardant un tiers de nos données pour vérifier que l'on est pas en train de faire (trop) d'overfitting." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [], "source": [ "from sklearn.model_selection import train_test_split\n", "\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Avant d'aller plus loin, on a besoin d'une référence, d'une notion qui nous permette de savoir si le modèle que l'on a appris a un sens ou pas.\n", "\n", "Pour cela, on va commencer par voir ce qu'il se passe si l'on renvoie un label au hasard, ou si on renvoie tout le temps le label le plus fréquent.\n", "L'objet `DummyClassifier` fonctionne comme `DecisionTree`, on l'entraîne avec la méthode `fit` puis on prédit de nouvelles valeurs avec la méthode `predict`.\n", "\n", "On obtient les scores suivants :" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Prédiction du plus fréquent : 0.1791304347826087\n", "Prédiction au pif : 0.16521739130434782\n" ] } ], "source": [ "from sklearn.dummy import DummyClassifier\n", "\n", "dummy_clf = DummyClassifier(strategy=\"most_frequent\")\n", "dummy_clf.fit(X_train, y_train)\n", "print(\"Prédiction du plus fréquent :\", dummy_clf.score(X_test, y_test))\n", "\n", "\n", "dummy_clf = DummyClassifier(strategy=\"uniform\")\n", "dummy_clf.fit(X_train, y_train)\n", "print(\"Prédiction au pif :\", dummy_clf.score(X_test, y_test))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Donc si on fait moins bien que ça, c'est qu'on a appris un classifieur vraiment inutile.\n", "Si on est au dessus, on a au moins appris un peu." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Arbres de décision ?\n", "\n", "Dans cette partie, on va entraîner des arbres de décision.\n", "Puis on va faire des forêts aléatoires, et on va essayer de trouver les paramètres qui vont bien." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "from sklearn.tree import DecisionTreeClassifier\n", "from sklearn.ensemble import RandomForestClassifier" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Voilà une fonction de score qui renvoie la proportion de bonnes prédictions sur un ensemble :" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "def score(clf, X, y):\n", " pred = clf.predict(X)\n", " return np.mean(pred == y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 5.** Entraînez un arbre de décision `DecisionTreeClassifier` sur les données d'entraînement et affichez son score de prédiction sur les datasets d'entraînement et de test. Que constatez-vous ? Est-ce normal ?" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 6.** Faites varier la profondeur maximale de l'arbre en changeant le paramètre `max_depth` et calculez le score en entrainement et en test. Que constatez-vous ?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": false }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 7.** Entraînez une forête aléatoire `RandomForestClassifier` sur les données d'entraînement et affichez son score de prédiction sur les datasets d'entraînement et de test." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 8.** Faites varier les paramètres `n_estimators` et `max_depth` de `RandomForestClassifier`, et renvoyez les paramètres qui marchent le mieux en test.\n", "\n", "*Remarque :* vous utiliserez deux boucles imbriquées les unes dans les autres pour faire varier les deux paramètres en même temps." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Cross Validation\n", "\n", "En fait, en procédant comme on l'a fait à la question précédente, on apprend un classifieur biaisé.\n", "En effet, on choisit les paramètres pour lesquels la performance en test est la meilleure, donc, à force, si on cherche parmi beaucoup de paramètres, un risque important est celui de faire de l'overfitting sur les données de test.\n", "\n", "Pour éviter cela, on va mettre de côté l'ensemble de test pour l'instant, et utiliser l'ensemble d'entraînement à la fois comme ensemble d'entrainement **et de test**.\n", "\n", "On divise donc à nouveau notre ensemble d'entraînement en deux parties : \n", "* un sous-ensemble d'entraînement (plus petit donc) ;\n", "* un sous-ensemble **de validation**.\n", "\n", "Ainsi, on va pouvoir entraîner notre modèle sur ce sous-ensemble d'entraînement, puis valider sa performance sur le sous-ensemble de validation.\n", "On va donc utiliser le sous-ensemble de validation comme à la question précédente.\n", "\n", "Et en fait, on peut même faire un petit peu mieux : on peut choisir plusieurs découpages de cet ensemble d'entraînement différents (par exemple en prenant 2/3 des points au hasard pour l'entraînement et 1/3 pour la validation, puis en recommençant ainsi plusieurs fois, on obtient plusieurs découpages différents de notre ensemble).\n", "Cela permet d'entraîner notre modèle sur chacun de ces sous-ensembles, puis d'évaluer leur performance sur chacun des sous-ensembles de validation, donnant un estimateur plus stable de l'erreur, et donc un choix plus stable des hyperparamètres.\n", "\n", "C'est ce qu'on appelle la **cross-validation**.\n", "\n", "Enfin, une fois que l'on a entraîné nos modèles de cette façon là, on peut regarder le résultats sur les données de test, pour avoir une **estimation** de l'erreur en test." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La fonction `cross_validate` permet de faire ces opérations sans avoir à tout réimplémenter.\n", "Par exemple, pour voir le résultat d'un classifieur sur $5$ découpages différents de notre ensemble, on peut procéder ainsi :" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "{'fit_time': array([0.02041817, 0.01682687, 0.0170908 , 0.01545501, 0.01597548]),\n", " 'score_time': array([0.00094748, 0.00055718, 0.00055718, 0.00047565, 0.00044656]),\n", " 'test_score': array([0.64529915, 0.58119658, 0.4806867 , 0.57081545, 0.53648069]),\n", " 'train_score': array([1. , 0.99892819, 1. , 0.99892934, 0.99892934])}" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.model_selection import cross_validate\n", "\n", "clf = DecisionTreeClassifier()\n", "\n", "cross_validate(clf, X_train, y_train, \n", " return_train_score=True, cv=5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Remarque importante :** la fonction `cross_validate` renvoie les scores en entraînement dans `train_score` et les scores **en validation** dans `test_score`, car pour lui, c'est un jeu de données de test." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 9.** Comme à la question précédente, entraînez un arbre de décision avec différentes valeurs de `max_depth`, puis prenez celui qui obtient le meilleur score moyen en validation." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Question 10.** Évaluez maintenant la performance sur les données de test, que vous n'avez normalement pas touchées jusqu'ici. Commentez la différence avec le score en validation." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.5" } }, "nbformat": 4, "nbformat_minor": 4 }